Карань Анна студентка факультета биоинженерии и бионформатики
|
Нуклеотидные банки данных
Задание 1
В первом задании необходимо охарактеризовать качество сборки какого-нибудь генома эукариотического организма.
Была выбрана тихоходка, по причине своей милости и популярности.
![](targ.jpg)
Рис.1.
Преимущества тихоходки
При введении в поиск NCBI
Tardigrada выдается лишь 2 результата для одного вида, все описания приведены в Таблицах 1 и 2.
Таблица 1. Общая информация о секвенировании тихоходки Hypsibius dujardini |
Число сборок генома | Число проектов по секвенированию организма / число образцов |
2 | 2/2 |
Таблица 2. Информация об одной из сборок тихоходки Hypsibius dujardini |
Описание образца (BIOSAMPLE) | Описание проекта (BIOPROJECT) |
Число контигов/скэффолдов сборки |
Образец: SAMN04435392 ID: 4435392 Имя образца: Hypsibius dujardini "curated" геном
Штамм: Sciento Возраст: различный Пол: и мужской, и женский Ткань: все тело |
Проект: PRJNA309530 ID: 309530 Тип данных: Секвенирование и сборка генома
Охват и чистота образца: Отдельный организм Организм: Hypsibius dujardini [Taxonomy ID: 232323]
Eukaryota; Metazoa; Ecdysozoa; Tardigrada; Eutardigrada; Parachela; Hypsibiidae; Hypsibius; Hypsibius dujardini
Публикации: Delmont TO et al., "Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies.", PeerJ, 2016 Mar 29;4:e1839
Представление: Дата регистрации - 3-Марта-2016, Университет Чикаго Актуальность: Эволюция |
15443/14960 |
Tаблица контигов/скэффолдов |
N50 и L50, самый длинный и самый короткий контиг | Последовательность одного из контигов |
Список контигов | Скэффолд N50 - 17214
Скэффолд L50 - 3119
Контиг N50 - 16753
Контиг L50 - 3224
Самый короткий контиг - 2000
Самый длинный контиг - 283682 |
Пример последовательности контига |
Задание 2
В этом задании нужно описать десять ключей, используемых в таблицах особенностей.
Информация о ключах былах взята с сайта
INSDC.
Примеры были получены при поиске на сайте
NCBI.
Таблица 2. Информация об одной из сборок тихоходки Hypsibius dujardini |
Ключ | Описание | Пример |
centromere | Участок ДНК, который соответсвует региону, где хроматиды соединяются,
и формируется кинетохор | complement(26968..32592) /locus_tag="TTRE_0000382201" |
exon | Регион генома, который кодирует участок сплайсируемой мРНК, рРНК и тРНК, может
содержать 5'UTR, все CDSs и 3'UTR | 50533030..50533191
/gene="LOC102633655"
/note="Derived by automated computational analysis using
gene prediction method: Gnomon. Supporting evidence
includes similarity to: 3 Proteins"
/pseudo |
sig_peptide | Последовательность сигнального пептида, кодирует последовательность
для N-терминального домена секретируемого белка, этот домен вовлечен в присоединение формируещегося
полипептида к последовательности, направляющей к мембране в дальнейшем. |
/organism="Anolis carolinensis"
30..92
/gene="IL10RB" |
5'UTR | 1)Регион на 5' конце транскрипта (перед инициаторным кодоном), который
не транслируется в белок. 2)Регион на 5' конце генома РНК-вирусов (предшествует первому
инициаторному кодону), который не транслируется в белок |
/organism="Mus musculus"
/chromosome="14"
1..28 |
repeat_region | Регионы генома, содержащие повторяющиеся элементы. |
/organism="Escherichia coli str. K-12 substr. MG1655"
5565..5669
/note="RIP1 (repetitive extragenic palindromic) element;
contains 2 REP sequences and 1 IHF site" |
ncRNA | Не белок кодирующий ген, отличающися от рибосомальной РНК и транспортной РНК,
функциональные молекулы которых являются РНК транскрипты | join(191287535..191288036,191288135..191288722)
/ncRNA_class="lncRNA"
/gene="Gm37168"
/product="predicted gene, 37168" |
C_region | Консервативный регион легкой и тяжелой цепей иммуноглобулина, T-клеточных
рецепторов α, β, γ цепей, включает один или больше экзонов, в зависимости от цепи |
/organism="Rattus norvegicus"
406..726
/note="constant region" |
STS | Целевой сайт, короткая, неповторяющаяся последовательность, являющаяся ориентиром
при картировании генома, может быть обнаружена с помощью ПЦР, регион генома может быть картирован
путем сопоставления порядка серии STSs |
/organism="Escherichia coli str. K-12 substr. MG1655"
1..286
/gene="yebT" |
polyA_site | Сайт РНК транскрипта, к которому добавляются остатки аденина при пост-транскрипционном
полиаденилировании |
/organism="Homo sapiens"
983 |
V_region | Вариабельный регион легкой и тяжелой цепей иммуноглобулина, T-клеточных
рецепторов Α, Β, Γ цепей, последовательности для вариабельной амино терминальной части,
может состоять из V-, D-, J- сегментов и N-региона |
/organism="Mus musculus"
/chromosome="14"
95..421
/product="immunoglobin kappa chain V-J region" |
Задание 3
В этом задании необходимо описать состояние дел в одном из массовых геномных проектов.
![](hmp.png)
Число крохотных микрооорганизмов, живущих в организме человека, значительно больше,
чем число самих человеческих клеток. В попытке каталогизировать микроорганизмы в организме человека,
Проект Микробиома человека (Human Microbiome Project - HMP) собрал образцы от 242 здоровых добровольцев из США и ткани из 15
участков тела у мужчин и 18 у женщин.
HMP проект - попытка более 200 исследователей и более чем 80 научно-исследовательских интститутов (главная,
координирующая организация - (NIH) Национальный иститут здоровья, США, Мэриленд, округ Монтгомери, Бетесда)
за 5 лет создать первый опорный каталог микробного разнообразия в организме человека.
Полученнные 5 терабайт геномных данных, охватывающие более 5 миллионов генов, будут полезны для
дальнейших исследований в области метагеномики.
Ссылка на сайт проекта.
Ссылка на проект на сайте лилидрующей организации NIH .
В HMP планировалось секвенировать, или собрать из общедоступных источников, в общей сложности 3000
эталонных геномов, выделенных из участков человеческого тела.
Информация, полученная от эталонных геномов, поможет в таксономическом определении и функциональной
аннотации 16s рРНК и метагеномной wgs последовательности, соответственно из метагеномных образцов.
Первая фаза HMP (2007-2012) имела 7 инициатив, направленных на развитие наборов данных
метагеномики и вычислительных средств для характеристики микробиомов у здоровых взрослых людей и
в случае конкретных микробиом-ассоциированных заболеваний:
1) Разработка опорного набора микробных геномов и предварительная характеристика микробиома человека.
Эта инициатива начинается с секвенирования 600 геномов и культивируемых, и некультивируемых бактерий,
а также нескольких небактериальных геномов. В сочетании с существующими и другими планируемыми сейчас
проектами общая спправочная коллекция должна достигать более 1000 геномов.
Инициатива будет продолжаться как метагеномный анализ, чтобы охарактеризовать сложность микробных
сообществ на отдельных участках тела, а также определить наличие ядра микробиома на каждом участке.
Будет проведен анализ 16s рРНК.
2) Выяснение отношений между болезнью и изменением в человеческом микробиоме.
Вторая инициатива включает в себя набор демонстрационных проектов по выделению взаимосвязи между
здоровьем человека и изменениями в человеческом микробиоиме.
3) Разработка новых технологий для анализа геномов.
Возможности секвенировать весь геном сейчас ограничены лишь группой культивируемых в лаборатории
микробов. Чтобы расширить эти возможности, необходимы новые методы для некультивируемых микроорганизмов.
4) Разработка новых инструментов для компьютерного анализа.
Наборы данных, полученные при метагеномном секвенировании, очень большие и сложные, требующие новых способов
анализа.
5) Создание центра анализа данных и координации
Ресурс, где можно будет найти всю информацию о проекте.
6) Создание репозитариев исследований
7) Оценка мультигеномных данных в понимании роли человеческого микробиома в здоровом и патологическом
состоянии организма.
Вторая фаза HMP (2013-2015) сфокусирована на одной инициативе по созданию первых в истории
интегрированных данных биологических свойств и микробиома, и хозяина с ипользованием мультигеномных
технологий
Ссылка на последнюю статью по проекту.
На 2016 год в базе проекта находятся 4767 геномов, но не все секвенированы именно в рамках этого проекта.
Задание 4
В этом задании необходимо составить таблицу митохондриальных генов
одного из организмов указанного таксона, в моем случае Rhodophyta.
И как исследуемый организм я выбрала Cyanidioschyzon merolae, её геном был первым полным секвенированным
геномом водоросли.
![](Cyan.jpg)
Рис.2.Cyanidioschyzon merolae во время деления |
![](merolae.jpg)
Рис.3.Рядом 2 особи Cyanidioschyzon merolae, одна из которых начинает делиться |
Обилие фотографий (Рис. 2, 3), демонстрирующих её деление, объясняется использованием этой водоросли для изучения деления, так как
клеточной стенки у них нет.
Полные митохондриальные геномы могут быть получены при таком запросе:
complete[TI] AND gene_in_mitochondrion[PROP] AND "Cyanidioschyzon merolae"[ORGN]
|
Однако и такой запрос выдает верный результат:
gene_in_mitochondrion[PROP] AND "Cyanidioschyzon merolae"[ORGN]
|
так как всего находок 2 (Genbank) и обе - полные митохондриальные геномы.
А если искать по RefSeq, с помощью такого запроса:
refseq[filter] AND complete[TI] AND gene_in_mitochondrion[PROP] AND "Cyanidioschyzon merolae"[ORGN]
|
то лишь 1 одна находка.
Файл excel со списком митохондриальных генов Cyanidioschyzon merolae
На первом листе - исходный список по всем генам, отсортированный по порядку следования в геноме,
и таблица с диаграммой, отражающей абсолютное количество генов различного типа в митохондриальном геноме
изучаемого вида (Рис.4).
![](diag_gene.png)
Рис.4. Распределение генов в митохондриальном геноме Cyanidioschyzon merolae
Задание 5
В данном задании необходимо заполнить таблицу размеров геномов.
Таблица 3. Размеры геномов в разных систематических группах организмов |
| Минимальный | Типичный | Максимальный |
Вироиды | 220 пн, вирус желтых рисовых пятнышек (RYMV, rice yellow mottle sobemovirus)
(ссылка) |
246-467 пн
(ссылка на статью) | |
Вирусы, бактериофаги | Porcine circovirus, 1,759
(ссылка) | 104 | Pandoravirus salinus, 2,400,000 пн.
(ссылка) |
Бактерии, археи | Mycoplasma genitalium, 580,000 пн (Альбертс, МБК) | 106 - 107 пн (Альбертс, МБК) |
Bradhyrhizobium japonicum, 9,200,000 пн
(ссылка) |
Эукариоты | Encephalitozoon intestinalis, 2,250,000 | Разброс у эукариот очень большой. Средним можно назвать - 109 |
Amoeba dubia, 670,000,000,000
(ссылка) |
![](size_g.png)
Рис.5. Размеры геномов
На Рис. 5 изображен относительные размеры геномов по группам эукариот, а архей и бактерий. Видно, что
геном эукариот обычно сильно больше, а также что и разброс размера у эукариот значительнее. (при нажатии
на изображение оно появится в новом окне, где можно его увеличить и расглядеть названия видов)